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== (54) Title: METHOD FOR VOICE INPUT AND VOICE RECOGNITION 

(54) Bezeichnung: VERFAHKEN ZUR SPRACHEINGABE UND -ERKENNUNG 

^ (57) Abstract: The invention relates to a method for voice input and voice recognition of words of a predetermined entire vocabulary 
^ using an alphabetical or alphabetically assigned input keyboard. Voice input and voice recognition is carried out in partial steps that 
^ relate to individual words each. Before every word is entered vocally, the initial letter or a portion of the alphabet that contains said 
initial letter is input, a partial vocabulary from the entire vocabulary is provided for voice recognition and voice recognition of the 
fN| word entered vocally is merely carried out by way of said partial vocabulary. 

(57) Zusammenfassung: Verfahren zur Spracheingabe und -erkennung von Worten eines vorgegebenen Gesamt-Wortschatzes unter 
^ Einsatz einer alphabe-tischen oder alphabetisch belegten Eingabetastatur, wobei die Spracheingabe und -erkennung in Teilschritten 

erfolgt, die jeweils ein einzelnes Wort betreffen, und wobei vor dem Ein-sprechen jedes Worles uber die Eingabetastalu/dessen 
O An-fangsbuchstabe oder ein Bereich des Alphabets, der den An-fangshuchstaben enthalt, eingegeben, ein Teil-Wortschatz aus dem 
^ Gesamt-Wortschatz fur eine Spracherkennung bereitgestellt und die Spracherkennung des eingesprochenen Worles allein an-hand 
>^ des Teil-Wortschatzes ausgefuhrt wird. 
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Beschreibung 

Verfahren zur Spracheingabe und -erkennung 

5 Die Erfindung betrifft ein Verfahren zur Spracheingabe und 

-erkennung nach dem Oberbegriff des Anspruchs 1 sowie weiter- 
hin ein Kommunikations- oder Datenendgerat und eine Bedien- 
einheit zur Steuerung eines technischen Gerates, die ein sei- 
ches Verfahren anwenden. 

10 

Spracherkennungssysteme werden mehr und mehr zu einer Stan- 
dardkomponente leistungsf ahiger Computer, bis hin zu PCs und 
Notebooks im mittleren und unteren Prei s segment . Die Ge- 
schwindigkeit und Erkennungsleistung von auf Computern mit 
15 leistungsfahigen Prozessoren und Speicherstrukturen laufenden 
Spracherkennungsprogrammen genugen mittlerweile sogar profes- 
sionellen Anspruchen . 

Im Zuge dieser Entwicklung wird zunehmend versucht, die 
2 0 Spracherkennung auch zur Gebrauchswertsteigerung von techni- 
schen Geraten des taglichen Bedarf s einzusetzen, so unter an- 
derem fur Mobiltelef one, Schnurlostelef one, PDAs und Fernbe- 
dienungen ftir Audio- und Video syst erne etc. . Derartige Gerate 
verfugen zumeist tiber eine Eingabetastatur , die mindestens 

2 5 ein Zif f ern-Eingabef eld und eine Reihe von Funktionstasten 

umfafit. Da eine Eingabe von Texten oder auch nur von Namen' 
oder langeren Steuerbef ehlen mittels einer numerischen Tasta- 
tur gar nicht oder nur auf unkomf ortable Weise moglich ist, 
ware die Realisierung einer (hinreichend zuverlassigen) 

3 0 Spracherkennung bei derartigen Endgeraten aus Sicht des Nut- 

zers tatsachlich hochst wiinschenswert . Systeme mit sehr redu- 
ziertem Steuerbef ehl-Wortschatz sind auch bereits realisiert 
worden und in praktischem Gebrauch. 
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Jedoch sind die genannten Gerate in der Regel nur mit einfa- 
cheren Mikroprozessoren, Mikrocontrollern oder digitalen Si- 
gnalprozessoren sowie mit Arbeitsspeichern beschrankter Kapa- 
5 zitat ausgestattet, die aufgrund ihrer beschrankten Rechen- 
bzw. Speicherleistung eine Einzelworterkennung nur ftir einen 
sehr begrenzten Wortschatz zulassen. Es gibt daher beispiels- 
weise noch immer keine Mobiltelef one, bei denen die Eingabe 
einer Kurznachricht (short message = SMS) direkt durch 
10 Spracheingabe moglich ware. 

In einem anderen Kontext ist vorgeschlagen worden, die Re- 
chenlast der Spracherkennung zwischen einem einfachen Endge- 
rat und einem Server-Dienst aufzuteilen. Hierbei findet beim 
Endgerat nur eine Merkmalsextraktion statt, wahrend alle fol- 
genden Schritte der Spracherkennung auf einem mit leistungs- 
fahiger Hardware ausgerusteten Server stattfinden. Hier wer- 
den also anspruchsvolle Spr ache rkennungspro gramme auf hochst 
leistungsf ahiger Hardware abgearbeitet ; das System erfordert 
aber einen permanenten Serveranschlufi des betreffenden tech- 
nischen Gerates. 

Der Erfindung liegt die Aufgabe zugruride, ein verbessertes 
Verfahren zur Spracheingabe und -erkennung der gattungsgema- 
25 lien Art anzugeben, das mit relativ geringer Prozessorleistung 
und Arbeitsspeicherkapazitat auskommt und daher auch auf 
kleineren technischen Geraten ohne Datenverbindung zu einem 
leistungsf ahigen Rechner realisiert werden kann. Diese Auf- 
gabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 
30 1 gelost. 

Die Erfindung schlieftt den grundlegenden Gedanken ein, den 
fur eine hinreichend komfortable und leistungsf ahige 
Spracherkennung im Alltagsgebrauch (insbesondere fur Steuer- 



15 



20 
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befehle und Textnachrichten geringer bis mittlerer Komplexi- 
tat) erforderlichen Gesamt-Wortschatz in einzeln adressier- 
und handhabbare Teil-Wortschatze fur die einzelnen Elemente 
eines per Sprache eingegebenen Textes aufzuteilen. Sie 
5 schlieflt weiter den Gedanken ein, diese Aufteilung wortweise 
vorzunehmen, und zwar aufgrund der Anf angsbuchstaben der 
Worte des zu erkennenden Textes. Letztlich schlieBt die Er- 
findung die Uberlegung ein, diese im Ergebnis zu einer Ex- 
traktion eines Teil-Wortschatzes ftir jeweils einzelne Erken- 
10 nungsschritte ftihrende Klassif izierung durch Betatigung einer 
Eingabetastatur vorzunehmen. (Unter den Begriff Eingabeta- 
statur* sollen im Kontext der Erfindung auch gegliederte Ein- 
gabef elder eines Touch-Screen, Folientastenf elder o.a. fal- 
len. ) 

15 

Das vorgeschlagene Vorgehen reduziert den im einzelnen 
Spracherkennungsschritt zu verarbeiteten Wortschatz und damit 
den Bedarf an Prozessorleistung und Arbeitsspeicherkapazitat 
erheblich. Dadurch wird eine Spracherkennung auch bei kleinen 

20 Endgeraten mit reduzierten Prozessor- und Speicherkonf igura- 
tionen sinnvoll und kann beispielsweise die lastige buchsta- 
benweise Eingabe einer Kurznachricht uber die mehrfach be- 
legte Zif f erntastatur eines Handys oder die kaum weniger um- 
standliche Eingabe von Namen, Adressen und Telef onnummern in 

25 einen PDA mittels dessen kleiner alphanumerischer Tastatur 
ersetzen. 

In einer fur eine Vielzahl praktischer Anwendungen bevorzug- 
ten Ausftihrung erfolgt die Unterteilung des Gesamt-Wortschat- 
30 zes in Teil-Wortschatze tlber die Eingabe des Anf angsbuchsta- 
bens oder die Kennzeichnung des Bereiches des Alphabets, in 
dem der Anf angsbuchstabe liegt, uber eine Zif f erntastatur mit 
zusatzlicher alphabetischer Belegung. Derartige Tastaturen 
sind bei Mobiltelef onen allgemein tiblich, haben aber auch bei 
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Festnetz- oder Schnurlostelef onen in den letzten Jahren zu- 
nehmende Verbreitung gefunden. 

Je nach konkreter Realisierungsf orm des Verfahrens und in Ab- 
5 Jiangigkeit vom Volumen des Gesamt-Wortschatzes ist dabei vor- 
teilhaf terweise eine gegeniiber der normalen Texteingabe iiber 
Zif f erntastatur vereinfachte Handhabung moglich: Statt eine 
bestimmte Zifferntaste zur Auswahl eines bestimmten Buchsta- 
bens eine vorgegebene Anzahl von Malen zu drucken, kann je- 
10 weils ein einmaliger Druck zur Spezif izierung des zugehorigen 
Bereiches von Buchstaben ausreichend sein. Der Nutzer der 
Spracherkennung legt also vor dem Einsprechen jedes einzelnen 
Wortes seines Textes bzw. seiner Steueranweisung oder seines 
Dateieintrages durch Drucken einer Taste auf der Ziffernta- 
15 statur fest, in welche Anf angsbuchstaben-Gruppe das darauf- 
folgende Wort fallt. Unter Anf angsbuchstaben-Gruppe wird da- 
bei die standardisierte Zuordnung der Tasten einer Ziffern- 
tastatur zu einer bestimmten Buchstabengruppe verstanden. So 
bedeutet bei den fur Telefone liblichen Zuordnungen z.B* die 
20 Eingabe der Ziffer „2* die Anf angsbuchstaben-Gruppe „A, B, 

C*, die Eingabe der Ziffer ,,3* die Buchstabengruppe „D, E r F* 
usw. . 

In einer weiteren vorteilhaf ten Ausgestaltung wird durch das 
Drticken der entsprechenden Taste vor dem Einsprechen eines 
Wortes das Spracherkennungssystem jeweils (beispielsweise -aus 
einem stromsparenden Bereitschaf tszustand) aktiviert und der 
Beginn der Spracheingabe zeitlich definiert („push-to-talk* 
-Prinzip) . 

Bei dem vorgeschlagenen Verfahren wird der Benutzer zur Ein- 
gabe von Wortfolgen im Sinne des Diktates eines Textes ge- 
zwungen, jedes Wort einzeln zu sprechen. Hiermit und mit der 
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zusatzlich erf orderlichen Ausfiihrung einer Tastenbetatigung 
ist gegenxiber etablierten Spracherkennungssystemen fur lei- 
stungsfahige Computer zwar eine deutliche Komf orteinbuBe ver- 
bunden. Mit Blick auf die vergleichsweise geringe Leistungs- 
5 fahigkeit der mit dem vorgeschlagenen Verfahren zu betreiben- 
den „Kleingerate* ergibt sich hieraus jedoch der grofie Vor- 
teil, daB das Spracherkennungssystem keine kontinuierliche 
Spracherkennung oder Wortsegmentierung ausfuhren muJi. Die 
aufgrund des vorgeschlagenen Verfahrens von vornherein anzu- 
10 wendende Einzelworterkennung benotigt im Vergleich zur konti- 
nuierlichen Erkennung eines Sprachf lusses erheblich weniger 
Rechenleistung. Des weiteren lassen sich spezielle Sprachmo- 
delle auf die Folge der Anf angsbuchstaben-Gruppen trainieren, 
die die Erkennung sicherer und schneller machen konnen. 

15 

Eine wichtige Gruppe von Geraten, bei denen das vorgeschla- 
gene Verfahren unter Einsatz einer Speicherteilungseinheit 
zur partiellen Aktivierung eines Teilbereiches des jeweiligen 
Gesamtwortschatz-Speichers angewandt werden kann, sind kleine 

20 Kommunikations- oder Datenendgerate, insbesondere Mobiltele- 
fone, Schnurlostelefone, Festnetztelef one und PDAs ( Orga- 
nizer* ) , Tascheniibersetzer etc*. Wahrend bei den erstgenann- 
ten Geraten die Eingabetastatur tiblicherweise eine wahlweise 
alphabetisch belegbare Zif f erntastatur ist, ist bei den Gera- 

25 ten der letztgenannten Gruppe eine echte alphanumerische Ta- 
statur vorhanden. Dies hat auf die Anwendung des erfindungs- 
gemaBen Verfahrens keinen grundsatzlichen EinfluB, sondern 
erleichtert diese eher. Das Vorhandensein von Buchstabenta- 
sten macht die Handhabung von Mehrf ach-Tastenbelegungen iiber- 

30 flussig und ermoglicht von vornherein eine Unterteilung des 
Gesamt-Wortschatzes nach einzelnen Anf angsbuchstaben (statt 
nach Buchstabengruppen, wie es beim Einsatz einer Ziffern- 
tastatur bevorzugt ware) . 
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Einen besonderen Gebrauchswertvorteil erbringt die mit der 
Erfindung geschaffene Moglichkeit der Spracheingabe einer 
Kurznachricht (SMS) bei einem Mobiltelef on. Vorteilhaft ist 
aber auch die Moglichkeit der Spracheingabe von Namen in den 
5 Rufnummernspeicher eines Mobil- oder Festnetztelef ons bzw. 

von Namen und Adressen in den Adressenspeicher eines PDA. Fur 
die e in zelnen. Anwendungen werden jeweils spezifische Gesamt- 
Wortschatze (umgangssprachlicher Grundwortschatz bzw. spezi- 
fischer Namens- und Ortnamens-Wortschatz u.a.) gebildet und 
10 gespeichert und bei der Spracherkennung erf indungsgemaii un- 
terteilt. 

Ein weiteres wichtiges Anwendungsgebiet sind Bediengerate zur 
Steuerung,. insbesondere zur drahtlosen Fernsteuerung, von 

15 technischen Geraten, beispielsweise Fernbedienungen fur 

Audio- und Videoanlagen, Beleuchtungssysteme, Kuchen- und an- 
dere Haushaltsgerate oder auch integrierte Systeirie der Heim- 
o.der Kraft fahrzeugelektronik. Hier kommen je nach konkreter 
Ausftihrung Ziffern- und Funktionstastaturen oder auch alpha- 

20 numerische Tastaturen zum Einsatz, und der Gesamt-Wortschatz 
ist auf typische Steuerfunktionen zugeschnitten und braucht 
keine Namen, Ortsnamen etc. zu enthalten. Sein Umfang wird 
tendenziell geringer als derjenige des Gesarat-Wortschatzes 
der oben erwahnten Kommunikations- und Datenendgerate sein, 

25 so daft fur bestimmte Anwendungen hier eine relativ grobe Un- 
terteilung in Einzel-Wortschatze ausreichend sein wird.. - 

Vorteile und Zweckmafiigkeiten der Erfindung ergeben sich im 
ubrigen aus den Unteranspriichen sowie der nachf olgenden Be- 
30 schreibung eines Ausf tihrungsbeispiels anhand der Figuir. Diese 
zeigt ein Funktions-Blockschaltbild von fur die Realisierung 
der Erfindung wesentlichen Komponenten eines Mobiltelefons 
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MS, das zur Spracheingabe von Kurznachrichten ausgebildet 
ist . 

Das Mobiltelefon MS hat in ublicher Weise (neben einigen, 
5 hier nicht genauer bezeichneten Funktionstasten) eine Zif- 
ferntastatur 1', eine Sprechkapsel 3 und ein mehrzeiliges al- 
phanumerisches Fliissigkristall-Anzeigef eld 5. In einem Kurz- 
nachrichten-Eingabemodus ist die Sprechkapsel 3 mit einem Si- 
gnaleingang einer Spracherkennungsstuf e 7 verbunden, deren 
0 Ausgang mit einem Textdateispeicher 9 sowie dem Anzeigefeld 5 
verbunden ist- Die Zif f erntastatur 1 ist - neben dem Anzeige- 
feld 5 - zum einen mit einer Triggereinheit 11 zur Triggerung 
bzw. Aktivierung der Spracherkennungsstuf e 7 uber eine Steu- 
ersignalverbindung verbunden. Weiterhin ist die Zif f erntasta- 
5 tur 1 mit einer Speicheradressier- bzw. -teilungsstuf e 13 
verbunden, welche einen Gesamtwortschatz-Speicher 15 adres- 
siert, der eine der Anzahl der Buchstaben des Alphabets ent- 
sprechende Mehrzahl von wahlfrei adressierbaren Speicher- 
bereichen 15i umfafit. Durch die Speicheradressier- bzw. 
-teilungsstufe 13 wird der Speicherinhalt jeweils eines 
Speicherbereiches 15i in einen Arbeitswortschatz-Speicher 17 
geladen, der wahrend eines Spracherkennungsschrittes mit der 
Spracherkennungsstuf e 7 als Arbeitsspeicher zusammenwirkt . 

Die Funktion der hier beschriebenen Anordnung ergibt sich 
ohne weiteres aus den obigen Erlauterungen zum Verfahren und 
muB daher nicht naher beschrieben werden. Lediglich illu- 
strierend sei erwahnt, dafi beispielsweise zur Eingabe des 
Wortes „Patent^ der Nutzer zuerst die Taste mit der Ziffer 7 
drtickt. Die Triggereinheit 11 aktiviert umgehend die 
Spracherkennungsstuf e 7, und die Speicheradressier- bzw. 
-teilungsstufe tiberftihrt den Speicherinhalt des Speicher- 
bereiches 15i des Gesamtwortschatz-Speichers 15, der zum 
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Anf angsbuchstaben „P* gehort, in den Arbeitswortschatz- 
Speicher 17. Die Spracherkennung lauft nun ausschliefllich 
bezogen auf Worte mit dem Anf angsbuchstaxben „P* abund 
ergibt das Wort „Patent* in Textform, welches in den Textda- 
5 teispeicher 9 ubernommen wird, in dem sukzessive die Bestand- 
teile einer Kurznachricht gespeichert werden. 

Mochte der Nutzer den in seinem Rufnummernverzeichnis regi- 
strierten Geschaf tspartner ^Niemoller^ anwahlen, druckt er 

10 die Zifferntaste 6 und spricht den Namen aus . Der Ablauf ist 
derselbe wie bei der Spracheingabe des Begriffes „Patent*, da 
der Gesamtwortschatz-Speicher 15 zugleich als Namensspeicher 
ausgebildet ist. Allerdings wird der Name nicht in eine Text- 
datei ubernommen, sondern zur Adressierung des Rufnummern- 

15 speichers genutzt. 

Das Diktieren der SMS „Komme heute abend urn 9 Uhr* stellt 
sich als folgender Ablauf dar: Tastendruck „5* - Einsprechen 
„Komme^ ; Tastendruck „4* - Einsprechen „heute*; Tastendruck 
20 „2* - Einsprechen „ abend* ; Tastendruck „8* - Einsprechen 

^um^; Tastendruck „6* - Einsprechen ,,9*; Tastendruck „8* - 
Einsprechen ^Uhr^ . 

Die Ausfiihrung der Erfindung ist nicht auf die angegebenen 
25 Beispiele und Anwendungsf alle beschrankt, sondern ebenso in 
einer Vielzahl von Abwandlungen moglich, die im Rahmen fach- 
gemafien Handelns liegen. 
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Patent ansprtiche 

1. Verfahren zur Spracheingabe und -erkennung von Worten 
eines vorgegebenen Gesamt-Wortschatzes unter Einsatz einer 

5 alphabet! s chen oder alphabetisch belegten Eingabetastatur, 
dadurch gekennze i- c h n e t, dafl 
die Spracheingabe und -erkennung in Teilschritten erfolgt, 
die jeweils ein einzelnes Wort betreffen, wobei vor dem Ein- 
sprechen jedes Wortes iiber die Eingabetastatur dessen An- 
10 f angsbuchstabe oder ein Bereich des Alphabets, der den An- 
f angsbuchstaben enthalt, eingegeben, 

jeweils anhand des Anf angsbuchstabens oder Alphabet-Bereiches 
ein Teil-Wortschatz aus dem Gesamt-Wortschatz fur eine 
Spracherkennung- bereitgestellt und 
15 die Spracherkennung des eingegebenen Wortes allein anhand des 
Teil-Wortschatzes ausgefiihrt wird. 

2. Verfahren nach Anspruch 1, 

dadurch gekennze ichnet, daB 
20 durch Betatigung der Eingabetastatur (1) jeweils eine 
Aktivierung eines Spracherkennungssystems (7) erfolgt. 

3. Verfahren nach Anspruch 1 oder 2, 
dadurch gekennze ichnet, daft 

25 als Eingabetastatur (1) eine alphabetisch belegbare Ziffern- 
und/oder Funktionstastatur eingesetzt wird, wobei insbesor*- 
dere durch jede Tastenbetatigung eine Gruppe von aufeinan- 
derfolgenden Buchstaben des Alphabets spezifiziert wird. 

30 4. Kommunikations- oder Datenendgerat (MS), insbesondere Mo- 
biltelefon, Schnurlostelef on r Festnetztelef on oder PDA, mit 
einer Sprechkapsel (3) zur Spracheingabe und einem Spracher- 
kennungs system (7) zur Spracheingabe und 
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-erkennung von Worten eines vorgegebenen Gesamt-Wortschatzes, 
einer alphabetischen Oder alphabetisch belegten Eingabetasta- 
tur (1) und einem dem Spracherkennungssystem zugeordneten 
Gesamtwortschatz-Speicher (15) , 
5 gekennzeichnet durch 

eine mit der Eingabetastatur verbundene Speicherteilungsein- 
heit (13) zur partiellen Aktivierung eines Teilbereiches 
(ISi) des Gesamtwortschatz-Speichers im Ansprechen auf eine 
Tastenbetatigung. 

10 

5. Kommunikations- oder Datenendgerat nach Anspruch 4, 
gekennzeichnet durch 

eine mit der Eingabetastatur (1) verbundene Triggereinheit 
(11) zur Aktivierung des Spracherkennungssystems (7) im 
15 Ansprechen auf eine Tastenbetatigung. 

6. Kommunikations- oder Datenendgerat nach 
Anspruch 4 oder 5, 

dadurch gekennzeichnet, dafi 
20 die Eingabetastatur (1). eine alphabetisch belegbare Ziffern- 
und/oder Funktionstastatur ist, bei der jede Taste insbeson- 
dere einem Buchstabenbereich des Alphabets zugeordnet ist. 

7. Bedieneinheit zur Steuerung, insbesondere zur drahtlosen 
25 Fernsteuerung, eines technischen Gerates, mit einer Sprech- 

kapsel zur Spracheingabe und einem Spracherkennungssystem zur 
Spracheingabe und -erkennung von Worten eines vorgegebenen 
Gesamt-Wortschatzes/ einer alphabetischen oder alphabetisch 
belegten Eingabetastatur und einem dem Spracherkennungssystem 
30 zugeordneten Gesamtwortschatz-Speicher, 
gekennzeichnet durch 

eine mit der Eingabetastatur verbundene Speicherteilungsein- 
heit zur partiellen Aktivierung eines Teilbereiches des Ge- 
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samtwortschatz-Speichers im Ansprechen auf eine Tastenbeta- 
tigung, 

8. Bedieneinheit nach Anspruch 7, 
5 gekennzeichnet durch 

eine mit der Eingabetastatur verbundene Triggereinheit zur 
Aktivierung des Spracherkennungssystems im Ansprechen auf 
eine Tastenbetatigung. 

10 9. Bedieneinheit nach Anspruch 7 oder 8, 

dadurch gekennzeichnet, daB 
die Eingabetastatur eine alphabetisch belegbare Ziffern- 
und/oder Funktionistastatur ist, bei der jede Taste insbeson- 
dere einem Buchstabenbereich des Alphabets zugeordnet ist. 

15 
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